Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37
Warning: file_put_contents(aCache/aDaily/post/ds_interview_lib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50 Библиотека собеса по Data Science | вопросы с собеседований | Telegram Webview: ds_interview_lib/967 -
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
Telegram has exploded as a hub for cybercriminals looking to buy, sell and share stolen data and hacking tools, new research shows, as the messaging app emerges as an alternative to the dark web.An investigation by cyber intelligence group Cyberint, together with the Financial Times, found a ballooning network of hackers sharing data leaks on the popular messaging platform, sometimes in channels with tens of thousands of subscribers, lured by its ease of use and light-touch moderation.
At a time when the Indian stock market is peaking and has rallied immensely compared to global markets, there are companies that have not performed in the last 10 years. These are definitely a minor portion of the market considering there are hundreds of stocks that have turned multibagger since 2020. What went wrong with these stocks? Reasons vary from corporate governance, sectoral weakness, company specific and so on. But the more important question is, are these stocks worth buying?
Библиотека собеса по Data Science | вопросы с собеседований from sg